Telegram Group & Telegram Channel
Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning [2022] - анкап-симуляции с RL-агентами

Я уже писал про рецепт успешных симуляций жизни в конце этого поста, и похожим образом поступили авторы данной работы. Цель исследования - изучать поведение агентов в различных экономических условиях.

Для этого авторы разработали следующую симуляцию: есть ограниченный 2D-мир, состоящий из травы, воды и деревьев с банами и яблоками. Агенты в среде существуют 2 видов - "яблочные фермеры" и "банановые фермеры". Они, соответственно, умеют хорошо добывать яблоки и бананы с этих деревьев, с вероятностью 100% фрукт успешно добавляется в рюкзак. Если яблочный фермер пытается собрать банан, то у него маленький шанс на успех, как и наоборот. Наград тут несколько:

1) Небольшой штраф за движение, за нахождение в воде
2) У агентов есть "голод", и при достижении 0 он начинает получать штраф каждую секунду. Съедание фрукта восстанавливает голод до 30.
3) Самое интересное - яблочный фермер за съедание банана (и наоборот) получает сильно большую награду, чем за съедание "своего фрукта"

Таким образом, каждый из видов агентов умеет хорошо добывать один вид фруктов, но при этом он хочет есть другой вид. Чтобы создать возможность обмена, авторы добавляют возможность агенту посылать в локальную окрестность "оффер" - вектор [x;-y], который обозначает "хочу x яблок за y бананов". Пространство офферов ограничено всего 18 опциями. Далее автоматически эти офферы обрабатываются и сводятся между собой, затем атомарно совершаются. Помимо этого, конечно, агенты могут ходить, собирать и съедать фрукты.

Запуская такую симуляцию, авторы ожидаемо видят, что агенты пользуются возможностью обмена и специализируются на добыче одного фрукта, выменивая его на другой. Далее авторы проводят огромное количество экспериментов, пытаясь "переоткрыть" базовое микроэкономическое поведение у агентов.

Рассмотрим, например, понятие кривых спроса и предложения. Для них нужно сначала ввести понятие цены товара. В данной задаче ценой считается среднее соотношение товаров во всех совершённых обменах. То есть, если агенты обменивали в половине случаев 1:1, в половине 1:2, то средняя цена будет 0.75.

Напомню про сами эти кривые - кривая предложения, к примеру, яблок показывает, по какой цене яблочные фермеры готовы продавать яблоки в зависимости от количества. Кривая спроса - по какой цене банановые фермеры готовы покупать яблоки при разном их количестве. Их пересечение даёт точку равновесия, наблюдаемую на практике.

Двигая одну из этих кривых, по перемещению точки равновесия можно восстановить другую кривую, таким образом, можно нарисовать настоящие кривые спроса и предложения в этой задаче, чем и занимаются авторы. Они регулируют количество яблочных / банановых деревьев, умножая их вероятность спауна на число, и рисуют точки равновесия. Результаты прикреплены к посту. Кривые, вероятно, зашумлены, но ожидаемая в теории закономерность видна.

В статье приводится огромное количество других подобных экономических экспериментов, интересующимся советую прочитать полный вариант. У такого подхода, есть, конечно, и минус - не всегда получаемое поведение обусловлено внешними условиями, а не тем, что агент тупо не смог сойтись к оптимальной точке. Например, если бы мы задали более элементарное пространство действий, агенты могли бы попросту не научиться совершать обмен, потому что это слишком длинная цепочка элементарных операций. Тем не менее, игрушка интересная.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/213
Create:
Last Update:

Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning [2022] - анкап-симуляции с RL-агентами

Я уже писал про рецепт успешных симуляций жизни в конце этого поста, и похожим образом поступили авторы данной работы. Цель исследования - изучать поведение агентов в различных экономических условиях.

Для этого авторы разработали следующую симуляцию: есть ограниченный 2D-мир, состоящий из травы, воды и деревьев с банами и яблоками. Агенты в среде существуют 2 видов - "яблочные фермеры" и "банановые фермеры". Они, соответственно, умеют хорошо добывать яблоки и бананы с этих деревьев, с вероятностью 100% фрукт успешно добавляется в рюкзак. Если яблочный фермер пытается собрать банан, то у него маленький шанс на успех, как и наоборот. Наград тут несколько:

1) Небольшой штраф за движение, за нахождение в воде
2) У агентов есть "голод", и при достижении 0 он начинает получать штраф каждую секунду. Съедание фрукта восстанавливает голод до 30.
3) Самое интересное - яблочный фермер за съедание банана (и наоборот) получает сильно большую награду, чем за съедание "своего фрукта"

Таким образом, каждый из видов агентов умеет хорошо добывать один вид фруктов, но при этом он хочет есть другой вид. Чтобы создать возможность обмена, авторы добавляют возможность агенту посылать в локальную окрестность "оффер" - вектор [x;-y], который обозначает "хочу x яблок за y бананов". Пространство офферов ограничено всего 18 опциями. Далее автоматически эти офферы обрабатываются и сводятся между собой, затем атомарно совершаются. Помимо этого, конечно, агенты могут ходить, собирать и съедать фрукты.

Запуская такую симуляцию, авторы ожидаемо видят, что агенты пользуются возможностью обмена и специализируются на добыче одного фрукта, выменивая его на другой. Далее авторы проводят огромное количество экспериментов, пытаясь "переоткрыть" базовое микроэкономическое поведение у агентов.

Рассмотрим, например, понятие кривых спроса и предложения. Для них нужно сначала ввести понятие цены товара. В данной задаче ценой считается среднее соотношение товаров во всех совершённых обменах. То есть, если агенты обменивали в половине случаев 1:1, в половине 1:2, то средняя цена будет 0.75.

Напомню про сами эти кривые - кривая предложения, к примеру, яблок показывает, по какой цене яблочные фермеры готовы продавать яблоки в зависимости от количества. Кривая спроса - по какой цене банановые фермеры готовы покупать яблоки при разном их количестве. Их пересечение даёт точку равновесия, наблюдаемую на практике.

Двигая одну из этих кривых, по перемещению точки равновесия можно восстановить другую кривую, таким образом, можно нарисовать настоящие кривые спроса и предложения в этой задаче, чем и занимаются авторы. Они регулируют количество яблочных / банановых деревьев, умножая их вероятность спауна на число, и рисуют точки равновесия. Результаты прикреплены к посту. Кривые, вероятно, зашумлены, но ожидаемая в теории закономерность видна.

В статье приводится огромное количество других подобных экономических экспериментов, интересующимся советую прочитать полный вариант. У такого подхода, есть, конечно, и минус - не всегда получаемое поведение обусловлено внешними условиями, а не тем, что агент тупо не смог сойтись к оптимальной точке. Например, если бы мы задали более элементарное пространство действий, агенты могли бы попросту не научиться совершать обмен, потому что это слишком длинная цепочка элементарных операций. Тем не менее, игрушка интересная.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/213

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

Export WhatsApp stickers to Telegram on Android

From the Files app, scroll down to Internal storage, and tap on WhatsApp. Once you’re there, go to Media and then WhatsApp Stickers. Don’t be surprised if you find a large number of files in that folder—it holds your personal collection of stickers and every one you’ve ever received. Even the bad ones.Tap the three dots in the top right corner of your screen to Select all. If you want to trim the fat and grab only the best of the best, this is the perfect time to do so: choose the ones you want to export by long-pressing one file to activate selection mode, and then tapping on the rest. Once you’re done, hit the Share button (that “less than”-like symbol at the top of your screen). If you have a big collection—more than 500 stickers, for example—it’s possible that nothing will happen when you tap the Share button. Be patient—your phone’s just struggling with a heavy load.On the menu that pops from the bottom of the screen, choose Telegram, and then select the chat named Saved messages. This is a chat only you can see, and it will serve as your sticker bank. Unlike WhatsApp, Telegram doesn’t store your favorite stickers in a quick-access reservoir right beside the typing field, but you’ll be able to snatch them out of your Saved messages chat and forward them to any of your Telegram contacts. This also means you won’t have a quick way to save incoming stickers like you did on WhatsApp, so you’ll have to forward them from one chat to the other.

Knowledge Accumulator from ms


Telegram Knowledge Accumulator
FROM USA